Robots.txt

规定了爬虫的爬取规范

作者:yangzi123
链接:https://www.zhihu.com/question/408430868/answer/2156616594
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

robots.txt 文件是在 1994 年出现的,那时搜索引擎技术刚刚兴起。从整个互联网寻找资源的搜索引擎, 像 Alta Vista 和 DogPile,开始和那些把网站按照主题进行分类的门户网站公司竞争激烈,比如像 Yahoo! 这样的门户网站。互联网搜索规模的增长不仅说明网络爬虫数量的增长,而且也体现了网络爬虫搜集信息的能力在不断变化。
虽然我们今天认为这种能力是十分平常的,但是当自己网站文件机构深处隐藏的信息变成搜索引引擎首页上可以检索的内容时,有些管理员还是非常震惊。于是,robots.txt 文件,也被称为机器人排除标准(Robots Exclusion Standard),应运而生。

是否按照 robots.txt 文件的要求写网络爬虫是由你自己决定的,当爬虫毫无节制地采集网站的时候,强烈建议你遵守。